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多 类 型 分 类 器 融合 的 文本 分 类 方法 研究 
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(东北 林业 大 学 信息 与 计算 机 工程 学 院 , 哈尔滨 150040) 


摘 要 : 传统 的 文本 分 类 方法 大 多 数 使 用 单一 的 分 类 器 ， 而 不 同 的 分 类 器 对 分 类 任务 的 侧重 点 不 同 ， 就 使 得 单一 的 分 
类 方法 有 一 定 的 局 限 性 ， 同 时 每 个 特征 提取 方法 对 特征 词 的 考虑 角度 不 同 。 针 对 以 上 问题 ， 提 出 了 多 类 型 分 类 器 融合 
的 文本 分 类 方法 。 该 模型 使 用 了 word2vec、 主 成 分 分 析 、 潜 在 语义 索引 以 及 TFIDF 特征 提取 方法 作为 多 类 型 分 类 器 融 
合 的 特征 提取 方法 。 并 在 多 类 型 分 类 器 加 权 投 票 方法 中 忽 咯 了 类 别 信 息 的 问题 ， 提 出 了 类 别 加 权 的 分 类 器 权重 计算 方 
法 。 通 过 实验 结果 表明 ， 多 类 型 分 类 器 融合 方法 在 二 元 语料库 、 多 元 语料库 以 及 特定 语料库 上 都 取得 了 很 好 的 性 能 ， 
类 别 加 权 的 分 类 器 权重 计算 方法 比 多 类 型 分 类 器 融合 方法 在 分 类 性 能 方面 提高 了 1.19%。 
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Research on text classification method of multi-class classifier fusion 


Li Huifu, Lu Guangi 
(College of Computer & Engineering, Northeast Forestry University, Harbin 150040, China) 


Te Abstract: Most of the traditional text classification methods use a single classifier, and different classifiers have different 


emphasis on classification tasks, which makes the single classification method have some limitations. At the same time, each 


feature extraction method has different angles of considering the feature words. Aiming at the above problems, this paper 


proposes a text classification method based on multi type classifier fusion, which combines Word2vec, Principal Component 


Analysis, Latent Semantic Indexing and TFIDF feature extraction as feature extraction methods for the multi type classifier 


= _ fusion. The weighted voting method of multi type classifier ignores the category information. This paper proposes a weighted 


classifier weight calculation method. The experimental results show that the multi classifier fusion method has achieved good 
performance both in two dimensional, multiple corpora and corpus specific corpus, the classification weighting method of 
classifier weighting improves the classification performance by 1.19% compared with the multi type classifier fusion method. 


Key Words: text classification; classifier fusion; principal component analysis; potential semantic index 


了 分 类 的 性 能 。 
上 述 研究 方法 都 取得 了 很 好 的 分 类 效果 。 但 是 , KNN 方法 
随 着 互联 网 的 逐渐 成 熟 和 微 博 等 社交 网 络 的 发 展 ， 以 信 ， 中 的 天 值 是 人 工 设置 的 ， 具 有 很 大 的 客观 性 。SVM 中 如 何 确 
技术 的 革命 极 大 了 改变 了 人 们 的 生活 方式 ， 越 来 越 多 的 用 户 通 定 高 维 空间 的 核 函数 是 目前 难点 之 一 。 贝 叶 斯 分 类 中 ， 特 征 计 
过 网 络 发 布 信息 和 评价 实时 信息 ， 这 些 信 息 的 主题 类 别 包括 色 算 时 假设 特征 之 间 相 互 独立 ,而 现实 中 的 特征 之 间 是 有 联系 的 。 
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情 、 邪 教 、 毒 品 在 内 的 各 种 有 害 信息 趾 。 因此 ， 如何 有 效 的 管理 。” 上述 方 法 都 是 采用 单一 的 分 类 器 对 文本 进行 分 类 ， 而 文本 数据 
言 息 对 互联 网 的 发 展 是 有 重要 意义 的 。 涉及 的 领域 非常 广 ， 这 使 得 单一 分 类 器 不 能 很 好 的 覆盖 更 多 的 
机 器 学 习 中 的 文本 分 类 方法 是 处 理 和 管理 文档 数据 的 关键 领域。 因此， 本 文 引 进 了 多 分 类 器 融合 的 文本 分 类 方法 。 
技术 中。 研究 者 对 文本 分 类 方法 进行 了 广泛 的 研究 。 例如 , 利用 文本 分 类 是 将 文本 内 容 相 似 的 文档 分 配 到 一 个 或 多 个 预定 
K 最 近邻 KNN) 方法 的 简单 、 无 参数 等 优点 对 文本 垃圾 短信 义 的 类 别 中 ， 而 特征 提取 方法 在 提高 分 类 器 的 性 能 方面 有 重要 


分 类 申 。Goudjil 等 人 四 通过 使 用 SVM 分 类 器 提供 的 后 验 概率 ” ”的 作用 中。 如 ， 文 献 中 中 ， 利 用 动能 定理 和 TFIDF 特征 提取 方 
来 选择 样本 , 利用 选择 的 样本 进行 分 类 。 在 文献 后 中 , 使 用 训练 ” ”法 来 解决 微 博 主题 检测 问题 。 文 献 [8] 中 ， 利 用 word2vec 作为 
数据 中 深度 计算 特征 加 权 频 率 来 估计 贝 叶 斯 的 条 件 概率 ， 提 高 自动 特征 提取 工具 , 然后 利用 句子 向 量 来 完成 分 类 。Santosh 等 
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人 名利 于 特征 本 体 树 和 LDA 作为 在 线 产品 评论 文本 的 特征 提 ”” 现 概率 的 模型 ,该 模型 是 一 个 三 层 的 神经 网 络 ,分 别 为 输入 


取 方 法 ， 能 更 好 的 识别 意见 词 。Uysal 等 人 09 使 用 遗传 算法 和  ” 隐藏 层 和 输出 层 。 输 入 层 是 输入 词 向 量 ， 
LSI 相 结合 的 方法 能 更 好 的 获取 文档 的 特征 向 量 ， 能 更 好 的 完 该 词 向 量 为 随机 值 ， 通 过 训练 数据 不 断 更 新 词 向 量 。 隐 藏 
成 分 类 任务 。 层 是 对 词 向 量 进行 累加 。 输 出 层 输 出 词语 的 概率 。 

上 述 特征 提取 方法 研究 中 ， 都 在 各 自 的 分 类 任务 中 取得 了 1.1.2 TF-IDF 
良好 的 效果 。 但 是 ，TFIDF 方法 只 考虑 了 词语 的 的 统计 指标 ， TF-IDF 是 经 典 的 特征 权 值 计算 方法 ，TF-IDF 由 7TF( 词 频 ) 
没有 考虑 到 特征 词 的 语义 知识 。LSI 方法 只 考虑 了 特征 词 之 间 ”和 1DF( 道 文档 频率 ) 构 成 的 ， 公 式 如 下 : 


的 语义 关系 。word2vec 没有 考虑 特征 词 的 统计 特征 。LDA 没有 
将 类 别 信息 加 入 到 主题 模型 中 。 上 述 方法 都 是 单一 的 特征 提取 
方法 并 且 每 个 特征 提取 方法 的 侧重 特征 词 不 同 ， 所 以 上 述 方法 其 中 : tflw) 为 单词 w 在 文本 中 出 现 的 次 数 ，idftw) 为 单词 w 的 
有 一 定 的 局 限 性 。 因 此 ， 为 了 能 更 好 的 表示 文本 的 特征 ， 本 文 逆 文 档 频 率 ，;idjfw) 的 计算 方法 如 式 〈2) 所 示 。 
使 用 融合 的 特征 提取 方法 。 2 了 A 
| idf (w)=log 一 一 O) 
综 上 所 述 ， 针 对 文本 分 类 器 和 特征 提取 方法 比较 单一 的 问 B(w) 
题 ， 本 文 提出 了 多 类 型 分 类 器 融合 的 文本 分 类 方法 。 并 针对 分 。 其 中 : 4 代表 训练 集中 文本 总 的 数量 ，B(w) 代 表 包 含 该 词语 w 
类 器 加 权 投 票 决策 方法 中 没有 考虑 到 分 类 器 对 每 个 类 别 的 贡献 的 文件 数量 。 
度 不 同 的 问题 ， 提 出 了 一 个 类 别 加 权 的 分 类 器 权重 计算 方法 。 1.1.3 LDA 
本 下 LDA 是 一 种 主题 模型 , 是 词 -文档 -主题 的 三 层 贝 叶 斯 模型 。 
1 。 多 类 型 分 类 硕 融 合 的 文本 分 类 主题 模型 通过 训练 集训 练 得 出 主题 的 Dirichlet 分 布 和 主题 与 词 
多 类 型 分 类 融合 的 方法 是 通过 融合 不 同 的 特征 提取 方法 使 之 间 的 多 项 式 分 布 函数 。 该 方法 首先 确定 一 个 主题 ， 然 后 在 主 
得 特征 空间 向 量 中 的 特征 词 更 加 丰富 ， 通 过 融合 多 特征 提取 方 ” 题 中 选择 一 个 单词 直到 遍历 所 有 的 单词 ，LDA 模型 如 图 2 所 
法 使 文本 的 表现 形式 更 加 丰富 ， 然 后 通过 使 用 分 类 器 进行 文本 示 。 
分 类 。 本 文 多 类 型 分 类 融合 的 方法 包含 了 以 下 特征 提取 方法 : 
word2vec; TF-IDF( 词 频 - 逆 文档 频率 ); 主题 模型 (latent Dirichlet 
allocation, LDA); 潜在 语义 索引 (latent semantic indexing, LSD; 
1.1 特征 提取 方法 


1.1.1 word2vec 词 向 量 ( Pl Hs D mn 


tidf (w)=# (w)xidf (w) (1) 


st 


FE] 


mt 


在 2013 年 ，Mikolov 等 人 提出 了 一 种 word2vec 的 开源 软 Be 
件 00。Word2vec(word to vecton) 方 法 通过 神经 网 络 方法 将 单词 
图 2 LDA 模型 
转换 为 词 向 量 。 在 训练 词 向 量 的 过 程 中 ， 首 先 提 取出 训练 数据 
集中 的 词语 生成 词语 表 , 通过 使 用 CBOW 或 者 Skip-Gram 模型 图 中 ， 丈 代表 文本 中 的 单词 ，N 代表 文本 中 的 单词 ; MM 代 
来 得 出 每 个 词语 的 词 向 量 ， 模 型 示意 图 如 图 1 所 示 。 表 文 本 的 数量 ; L 代表 参数 值 D 的 多 项 分 布 ; P2 代表 Dirichlet 
分 布 的 先 验 参数 ,表示 词 下 的 概率 ;D 代 表 以 Pl 参数 的 Dirichlet 


隐藏 层 输出 层 


输入 层 隐藏 层 输出 层 输入 


吉 


主题 分 布 ; Pl 是 DD 的 参数 ; 


w(t-2) 本 AP 1.1.4 LSI 
AN we LSI 是 一 种 无 监督 的 数据 挖掘 技术 ， 针 对 一 词 多 义 等 语义 
> 累加 一 w(t w(D) 一 一 分解 KK、 . 问题 有 很 好 的 效果 。 在 潜在 语义 索引 方法 中 ， 使 用 奇异 值 分 解 
Ti 人 方法 分 解 特征 向 量 空间 来 达到 降 维 的 目的 ， 算 法 模型 如 图 3 所 
w(t+2) / a Ts 
CBOW Skip-Gram 


间 


| 放贷 | 一。 特征 同时 守 | 一 奇异 人 分解 


图 1 CBOW 和 Skip-Gram 模型 


在 图 1 中 显示 , CBOW 和 Skip-Gram 模型 是 一 个 反 向 的 过 ye 
L_ 征 空间 | 
程 。CBOW 模型 是 利用 待 预 测 词 前 后 各 t 个 词 去 预测 当前 词 ， 


图 3 潜在 语义 索引 模型 示意 图 


而 Skip-Gram 模型 是 利用 当前 预测 词 去 预测 前 后 各 t 个 词 。 
于 本 文 使 用 了 CBOW 模型 ,所 以 本 文 详 细 介 绍 了 CBOW 模型 。 1.2 多 类 型 分 类 器 融合 
CBOW 模型 是 一 种 利用 上 下 文 的 信息 来 预测 当前 词语 出 通过 1.1 节 的 特征 提取 方法 计算 使 得 产生 了 4 组 不 同 的 特 
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征 向 量 空 


x 间 。 第 一 个 是 


E 的 语义 


空间 ， 第 二 个 是 利用 


句 量 空 | 


空间 之 间 的 互补 性 。 
角形 中 的 数字 为 分 类 器 的 权重 。 


司 ， 最 


CBOW 方法 产 4 


TFIDF 产生 的 向 量 空 
后 一 个 是 利用 主题 模型 产生 的 LDA 向 


E 的 word2vec 的 向 量 


E 间 ,第 三 个 是 LSI 产 


空间 。 多 类 型 分 类 器 融合 的 方法 是 利用 特 和 


E 提 


取 方 法 产生 向 


多 类 型 分 类 器 方法 模型 如 图 


4 所 示 ， = 


/word2 几 Vec classifi 
人 vec Vy oe /— 
TPIDF| » 2 / classifi A 从 、 
vec ,| classifi \ ty 
sl 时 时 vs /一 my 
¥ a / yy, 7 a 
图 4 多 类 型 分 类 器 融合 示意 图 
1.3 类别 加 权 多 类 型 分 类 器 融合 
多 分 类 器 融合 可 以 利用 不 同 分 类 器 来 完成 不 同 的 任务 ， 从 
而 避免 考虑 不 全 面 的 问题 ， 不 同 分 类 器 对 同一 样本 的 分 类 能 
不 同 ， 因 此 ， 每 个 分 类 器 对 每 个 样本 都 有 不 同 的 贡献 能 力 ， 分 


类 器 加 权 投 票 方 法 是 作为 组 合 分 类 器 投票 决策 的 方法 之 一 中 。 


分 类 性 能 (训练 完 的 样 


其 中 : 


不 同 的 ， 当 组 合 分 类 器 进行 分 类 决策 时 ， 
性 能 好 的 分 类 器 ， 使 得 决策 的 性 和 
性 能 作为 分 类 器 的 权重 。 


分 类 性 能 


图 5 为 传统 的 二 元 分 类 样 
据点 ， 每 个 类 别 有 40 个 训练 数据 点 ， 每 
据点 ， 其 中 :代表 训练 数据 类 别 1，x 代 表 训 练 数据 类 别 2，A 代 


加 权 投 票 方法 有 如 下 优点 : 不 同 分 类 器 对 


errorNum 


textNum 


xml 二 
€ 


errorNum 为 分 类 器 未 了 
样本 数据 集中 样本 的 总 数量 ; 


本 示意 


图 ， 


本 对 训练 样本 的 正确 识别 率 ) 作 为 分 类 器 
同一 样本 的 识别 率 是 

分 类 结果 倾向 与 分 类 

能 最 好 。 因 此 ， 本 文 使 用 分 类 


公式 如 式 (3) (4) 所 示 。 


E 确 分 类 的 样本 数目 ; 
a 为 分 类 器 对 数据 集 的 权重 。 
图 中 一 共有 100 个 数 


G3) 


(4) 


textNum 为 


个 类 别 有 10 个 测试 数 


表 测 试 数据 类 别 2 中 的 测试 数据 ，< 为 测试 数据 类 别 1 中 的 测 


试 数据 。 


本 部 分 用 
性 能 作为 分 类 器 权重 。 


KNN 和 多 项 式 贝 叶 


于 3.2452, 多项式 贝 叶 ] 
因此 可 知 , KNN 分 类 器 权重 为 3 
重 是 2.5123。KNN 方法 的 错误 样 


斯 方法 的 错误 村 


中 时 , 根 


投票 原则 


可 得 该 组 合 方法 
个 ， 即 是 KNN 方法 的 错误 率 。 这 种 方法 
分 类 性 能 作为 分 类 器 的 权重 ， 忽 略 了 类 另 


方法 得 至 


此 ， 本 文 提出 了 类 别 加 权 的 分 类 器 权 习 


斯 作为 分 类 算法 ， 


分 类 


通过 KNN 方法 得 到 了 为 0.0375, a 等 
1 了 se 为 0.9625,w 等 
.2452, 多 项 式 贝 叶 斯 分 类 器 权 
本 个 数 为 12 个 ， 多 项 式 贝 叶 
本 个 数 为 10 个 ， 当 测试 样本 点 输入 组 合 分 类 
的 错误 测试 样本 个 数 为 12 
只 是 将 整个 分 3 
别 对 分 类 器 的 影响 。 因 
计算 方法 。 


于 2.5123; 


器 的 


天 
bv 
[a 


和 
从 + d+ 
A 


ce , | 
0 0 一 35 一 40 一 条 一 50 


图 5 


二 元 分 类 样本 示意 图 


类 别 加 权 分 类 器 是 考虑 类 别 信息 对 分 类 器 权重 的 影响 。 在 
上 述 组 合 分 类 器 中 , KNN 分 类 性 能 中 包含 了 1 个 负 类 样本 和 2 
个 正 类 样本 。 多 项 式 贝 叶 斯 分 类 性 能 中 包含 了 6 个 负 类 样本 。 
通过 上 述 分 析 得 到 ， 多 项 式 贝 叶 斯 分 类 器 对 正 类 样本 有 好 的 识 
别 率 ， 所 以 想 增加 多 项 式 贝 叶 斯 正 类 样本 的 权重 ， 减 少 负 类 样 
本 的 分 类 器 权重 。 因 此 ， 本 文 以 不 同样 本 的 类 别 赋予 不 同 的 分 
类 器 权重 。 类 别 加 权 分 类 器 公式 如 式 (5) 所 示 。 通过 式 (5) 计 算 可 
以 得 出 ，KNN 的 正 类 的 s 为 0.05， 负 类 的 s 为 0.025， 正 类 的 
wx 是 2.9444， 负 类 的 wx 是 3.6636。 多 项 式 贝 叶 斯 的 正 类 se 为 0， 
负 类 的 s 为 0.15， 正 类 的 a 是 10( 表 示 无 穷 大 )， 负 类 的 a 是 
1.7346。KNN 和 多 项 式 贝 叶 斯 组 合 方法 当 测 试 样本 为 正 类 的 时 
候 ， 多 项 式 贝 叶 斯 起 到 很 好 的 作用 ， 当 测试 样本 为 负 样本 时 ， 
KNN 方法 对 组 合 分 类 器 的 影响 较 大 , 根据 投票 原则 得 出 了 该 组 
合 方法 的 错误 样本 个 数 为 9 个 ， 相 比 以 前 的 分 类 器 权重 计算 方 
法 分 类 效果 得 到 了 提升 。 


OUX EL 

w= G) 
errorINum 

a (6) 
textNum 


其 中 : x 表示 测 试 样本 , Li/ 表示 在 类 别 1 下 测试 样本 的 分 类 器 权 
重 。errorINum 为 类 别 1 下 的 分 类 错误 率 。4 如 式 (4) 所 示 。 

妹 此 ， 通 过 上 述 数 据 的 分 析 ， 得 出 了 类 别 加 权 分 类 器 权 
方法 能 更 好 的 表示 出 分 类 器 权重 。 将 类 别 加 权 分 类 器 权重 方法 
融入 到 多 类 型 分 类 器 方法 模型 中 ， 得 出 了 改进 的 多 类 型 分 类 器 
模型 ， 模 型 如 图 6 所 示 。 


Mn 


站 


a 


f word2 | \ /Vect 有 | classifi 
b \vec \ orl / er 
| TFIDF|) »/ vect 区 ,| classifi 
EE /人 /or2 / er 
数据 集 AN 
NM A / vect classifi 
\ | LSI (mY 13 ) 站、 
YLDA1 _» vect / ,| classifi 
\ Vy / or4 er Sa V 
图 6 多 类 型 二 元 分 类 器 融合 示意 图 


1.4 多 类 型 分 类 器 的 算法 步 又 
输入 : 样本 训练 集 x_train， 样 本 测试 集 x_test， 样 本 训练 集 标签 y_train， 样 本 测试 集 标签 
y_test， 分 类 器 数目 cLassNum 


输出 ;预测 结果 矩阵 predicted 
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1) calculate word2vec for x_train as classl 


2) calculate tfidf for x_train as class2 


3) calculate lsi for x_train as class3 


4) calculate lda for x train as class4 


5) train classifier according to x_train 


6) for iE{1,2,.…,len(x train)} do 


7) calculate errorword2vecNum、errortfidfnum、errorlsiNum、errorldaNum for 


each 


8) end 


class according to y_train 


9) for iE{f1l,2,…，len(x_test)} do 


16) 


according to equation (4)、 (5)and(6) 


11) for ieE{f1,2,…，,， len(x_test)} do 


12) 

13) 

14) end 

15) 

16) end 

17) return predicted 


for jEe{1,2,.…,classNum} do 


s[j] += class[j]*w[j][i] 


predicted[i] = maximum number index for s is class 


2 ”实验 与 结果 分 析 


calculate wii for errorword2vecNumerrortfidfnumerrorlsiNum,errorldaNum 


实验 平台 基于 anaconda 平台 ， 编 程 语言 为 python 语言 ，4 


GB 内 存 和 1 TB 硬盘 的 


2.1 实验 数据 


为 了 验证 多 类 型 分 类 融合 方法 的 性 能 ， 本 文 利用 


电脑 上 进行 实验 。 


nltk 中 的 


movie reviews 的 特定 场景 的 语料库 03 和 普通 文本 分 类 搜狗 语 
料 库 以 及 20news 语料库 进行 实验 验证 [9。 其 中 : 搜狗 语料库 以 


及 20news 语料库 是 最 常 
法 的 不 同性 能 。 而 20news 的 数据 是 相对 了 
movie_reviews 是 关于 电影 评论 的 情感 分 析 语 料 库 ， 
析 等 分 类 工作 ， 通 过 
法 。 数 据 集 的 分 布 如 


使 用 movie reviews 能 更 好 的 验 说 


的 文本 分 类 语料库 ， 可 用 于 测试 算 
F 衡 的 数据 集 。 
用 于 情感 分 


E 本 文 算 


表 1 所 示 。 


表 1 数据 集 分 布 
数据 集 名 称 类 别名 ”训练 集 / 个 ”测试 集 / 个 
pos 1600 400 
Movie reviews 
neg 1600 400 
atheism 640 160 
med 792 198 
20news 
crypt 794 198 
graphics 800 200 
社会 1460 365 
搜狗 语料库 
娱乐 1460 365 
2.2 实验 分 析 


该 部 分 的 实验 分 为 三 个 实验 来 进 
证 了 算法 的 有 效 性 


第 二 


行 的 ， 第 一 个 实验 主要 验 
个 实验 主要 关注 特征 维 数 对 本 文 算法 


李惠 富 


的 影响 ， 第 三 个 实验 验证 类 别 加 权 分 类 器 权 习 
分 类 方法 采 


性 。 


用 python 语言 中 


EE 计算 方法 的 有 效 
sklearn 库 中 的 


KNeighborsClassifier 方法 作为 分 类 方法 (k 值 为 10)， 特 征 提取 
方法 有 word2vec、LSI、LDA 和 TFIDEF 方法 ， 过 滤 掉 小 于 30 


的 特征 词 ， 使 | 


样本 识别 率 人 


交叉 验证 方法 验证 算法 的 有 效 愧 
法 以 及 其 他 下 属 混 合 方法 进行 实验 ， 以 验证 本 文 算法 的 性 能 。 


| 


2.2.1 多 类 型 分 类 器 融合 方法 的 实验 对 比 


该 部 分 使 用 


用 的 是 300 维特 征 ， 


了 20news 和 movie reviews 数据 集 来 进 
的 , 20news 为 相对 平衡 数据 集 侧重 于 多 元 分 类 ， 
为 平衡 数据 集 侧重 于 二 元 分 类 和 特定 场景 的 分 类 ， 特 征 
实验 结果 如 表 2 所 示 。 


FE 为 分 类 的 评价 标准 ， 并 采 


用 6 折 


E01。 本 文 实 验 将 多 类 型 


融合 方 


太 


行 实 验 


movie reviews 


表 2 20news 和 movie reviews 分 类 结果 


Movie reviews(%) 20news(%) 


LDA 57.58 
TFIDF 70.13 
LSI 69.46 

word2vec 62.71 
LDA+TFIDF 65.33 
LSI+TFIDF 71.21 
LSI+LDA 65.75 
word2vec+TFIDF 69.58 
word2vec+LDA 61.54 
word2vect+LSI 69.21 
LSI+LDA+TFIDF 70.75 
word2vec+TFIDF+LDA 69.38 
word2vec+LSI+TFIDF 70.75 
word2vec+LSITLDA 69.38 
word2vec+LSIHTFIDF+LDA 73.34 
平均 值 67.74 

本 文 算法 的 最 小 识别 率 13 


92.06 
93.25 
93.85 
79.89 
93.72 
94.44 
93.32 
89.15 
87.37 
88.49 
95.44 
95.11 
94.58 
95.30 
96.49 
92.16 
1.06 


通过 表 2 可 知 ， 多 元 分 类 20news 的 


F 均 识别 率 为 92.16% 


比 movie reviews 的 67.74% 高 。 这 是 因为 movie reviews 是 专 


业 情 感 分 析 数 据 集 而 


不 同 。 本 文 的 多 类 型 分 类 器 方法 以 及 多 类 型 分 类 器 下 
比 ，movie_reviews 取得 了 良好 的 效果 ， 
20news 最 低 提升 了 1.06%。 这 是 
着， 所 以 分 类 器 的 i 


I 


据 


20news 为 文本 分 类 数据 集 ， 


2.2.2 特征 维 数 对 融合 分 类 器 的 实验 影响 


该 部 分 使 
和 700) 对 分 类 性 能 


从 表 3 可 以 看 出 ， 


实验 结果 如 表 3 


时 ， 多 类 型 分 类 器 的 性 能 最 好 ， 随 着 特征 维 数 和 


类 器 的 平均 识别 率 有 所 下 降 ， 这 是 因 


最 低 提 升 了 
因为 20news 是 相对 平衡 的 数 
只 别 率 倾向 于 多 样本 类 别 。 


所 示 。 
movie_reviews 数据 集 的 特征 绢 


的 不 断 


增 


应 用 的 领域 
属 方法 相 
2.13%， 


] movie_reviews 来 验证 不 同 维 数 (100、300、500 
4 影响 ， 


E 数 为 300 


加 ， 分 


为 特征 数量 不 断 增加 ， 使 


得 表示 文档 的 特征 向 量 空间 中 会 出 现 大 量 的 0， 


导致 文 


' 


本 特征 


空间 的 稀 玻 而 影响 了 分 类 器 的 效果 。 1.19%， 分 类 器 融合 方法 比 下 属 方法 也 高 出 0.82%, 在 单独 特征 
表 3 movie reviews 不 同 特征 维 数 提取 方法 中 分 类 性 能 均 得 到 了 提高 了 , 只 有 在 word2vec+TFIDF 
- 100 300 500 700 和 word2vec+LSI 以 及 LSI+LDA+TFIDF 方法 效果 没有 提高 , 这 
LDA 5775 5758 57.50 57.58 是 因为 语料库 的 数据 规模 使 得 word2vec 方法 的 词 向 量 得 分 类 
TFIDF 68.70 70.13 68.75 69.00 效果 不 是 很 好 , 同时 LDA、LSI 以 及 word2vec 所 取得 的 识别 率 
LsI 68.95 6946 6875 69.13 几乎 相同 ， 使 得 word2vec+LSIHTFIDF 的 融合 方法 和 
word2vec 61.65 62.71 61.55 62.04 word2vect+LSITTFIDF+LDA 的 融合 方法 效果 相差 无 几 ， 从 而 影 
LDA+TFIDF 64.50 65.33 64.45 64.00 响 了 融合 分 类 器 整体 的 分 类 性 能 。 
LSI+TFIDF 71.00 71.21 69.85 69.92 3 ”结束 语 
LSITLDA 64.90 65.75 64.30 64.54 
word2veeHTEIDE 6840 6958 6830 67.42 本 文 针 对 单一 的 分 类 器 以 及 单一 的 特征 提取 方法 没有 很 好 
dent IA 60.55 61.54 6055 5996 的 扩展 性 问题 ， 提 出 了 多 类 型 分 类 器 融合 的 文本 分 类 方法 。 本 
word2vectLSI 6935 6921 68.60 67.42 文 以 四 个 不 同类 型 的 特征 提取 方法 融合 起 来 组 成 了 多 类 型 的 文 
LSHLDAHTFIDF 7020 7075 6930 69.63 本 分 类 方法 。 并 对 分 类 器 权重 没有 考虑 类 别 信息 的 问题 ， 提 出 
word2vec+TEFIDF+LDA 68.55 69.38 68.00 68.68 了 类 别 加 权 的 分 类 器 权重 计算 方法 。 通 过 二 元 分 类 和 多 元 分 类 
word2vectLSLHTEFIDF 70.45 7075 6985 6958 实验 来 验证 本 文 算法 的 有 效 性 。 下 一 步 工作 是 将 该 方法 如 何 并 


a er 
word2vectLSIHLDA B68.60 68.75 68.05 67.92 行 计算 ， 减 少 模型 的 计算 时 间 。 


word2vec+LSITIFIDF+LDA 72.15 73.00 70.60 70.75 参考 文献 ; 
平均 值 67.05 67.65 66.56 66.48 
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